Projet Chamois
1 Chargement des librairies
library(tidyverse)
library(corrplot)
library(lmerTest)
library(ade4)
library(splines)
library(car)
library(plotly)
library(DT)
library(Hmisc)
library(kableExtra)
library(knitr)
library(MASS)2 Import et description du jeu de données
2.1 Import des données
2.2 Description des données
2.2.1 Résumé des données
## 'data.frame': 1328 obs. of 7 variables:
## $ id : Factor w/ 217 levels "101","105","106",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ year : int 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 ...
## $ fec : int 1 1 1 1 1 1 1 0 0 0 ...
## $ coh : int 1995 1995 1995 1995 1995 1995 1995 1995 1995 1995 ...
## $ anmark: int 1998 1998 1998 1998 1998 1998 1998 1998 1998 1998 ...
## $ pds : num NA NA NA NA NA NA NA NA NA NA ...
## $ ydth : int 2008 2008 2008 2008 2008 2008 2008 2008 2008 2008 ...
## cham
##
## 7 Variables 1328 Observations
## --------------------------------------------------------------------------------
## id
## n missing distinct
## 1328 0 217
##
## lowest : 101 105 106 107 108, highest: 82 87 9 93 R1
## --------------------------------------------------------------------------------
## year
## n missing distinct Info Mean Gmd .05 .10
## 1328 0 27 0.998 2006 6.831 1995 1997
## .25 .50 .75 .90 .95
## 2001 2006 2010 2014 2015
##
## lowest : 1991 1992 1993 1994 1995, highest: 2013 2014 2015 2016 2017
## --------------------------------------------------------------------------------
## fec
## n missing distinct Info Sum Mean Gmd
## 1328 0 2 0.716 806 0.6069 0.4775
##
## --------------------------------------------------------------------------------
## coh
## n missing distinct Info Mean Gmd .05 .10
## 1328 0 33 0.997 1996 7.75 1985 1987
## .25 .50 .75 .90 .95
## 1991 1997 2001 2005 2007
##
## lowest : 1977 1978 1980 1982 1983, highest: 2007 2009 2010 2011 2014
## --------------------------------------------------------------------------------
## anmark
## n missing distinct Info Mean Gmd .05 .10
## 1328 0 24 0.996 2002 6.288 1993 1994
## .25 .50 .75 .90 .95
## 1998 2002 2006 2009 2011
##
## lowest : 1991 1992 1993 1994 1995, highest: 2010 2011 2012 2014 2015
## --------------------------------------------------------------------------------
## pds
## n missing distinct Info Mean Gmd .05 .10
## 1100 228 92 0.999 19.89 5.25 11.5 12.0
## .25 .50 .75 .90 .95
## 16.9 21.1 23.3 25.0 26.0
##
## lowest : 7.8 10.5 11.0 11.1 11.3, highest: 26.5 26.8 27.0 28.3 28.4
## --------------------------------------------------------------------------------
## ydth
## n missing distinct Info Mean Gmd .05 .10
## 920 408 22 0.977 2006 4.908 1998 2000
## .25 .50 .75 .90 .95
## 2003 2007 2008 2012 2014
##
## lowest : 1994 1996 1997 1998 1999, highest: 2012 2013 2014 2015 2016
## --------------------------------------------------------------------------------
2.2.2 Elimination des données aberrantes
Les chamois observés après leur mort ou avant leur naissance sont retirés du jeu de données. De même, les observations réalisées avant l’année de marquage sont supprimées.
cham <- cham %>%
filter(year<=ydth | is.na(cham$ydth)) %>%
filter(year>=coh)%>%
filter(anmark <= year)
describe(cham)## cham
##
## 7 Variables 1219 Observations
## --------------------------------------------------------------------------------
## id
## n missing distinct
## 1219 0 208
##
## lowest : 101 105 106 107 108, highest: 82 87 9 93 R1
## --------------------------------------------------------------------------------
## year
## n missing distinct Info Mean Gmd .05 .10
## 1219 0 26 0.997 2006 6.785 1996 1998
## .25 .50 .75 .90 .95
## 2002 2006 2010 2014 2015
##
## lowest : 1992 1993 1994 1995 1996, highest: 2013 2014 2015 2016 2017
## --------------------------------------------------------------------------------
## fec
## n missing distinct Info Sum Mean Gmd
## 1219 0 2 0.703 762 0.6251 0.4691
##
## --------------------------------------------------------------------------------
## coh
## n missing distinct Info Mean Gmd .05 .10
## 1219 0 33 0.997 1997 7.71 1985 1987
## .25 .50 .75 .90 .95
## 1991 1998 2001 2005 2007
##
## lowest : 1977 1978 1980 1982 1983, highest: 2007 2009 2010 2011 2014
## --------------------------------------------------------------------------------
## anmark
## n missing distinct Info Mean Gmd .05 .10
## 1219 0 24 0.996 2002 6.24 1993 1994
## .25 .50 .75 .90 .95
## 1998 2002 2005 2009 2011
##
## lowest : 1991 1992 1993 1994 1995, highest: 2010 2011 2012 2014 2015
## --------------------------------------------------------------------------------
## pds
## n missing distinct Info Mean Gmd .05 .10
## 1011 208 90 0.999 19.65 5.382 11.5 12.0
## .25 .50 .75 .90 .95
## 16.5 21.0 23.3 25.0 26.0
##
## lowest : 7.8 10.5 11.0 11.1 11.3, highest: 26.5 26.8 27.0 28.3 28.4
## --------------------------------------------------------------------------------
## ydth
## n missing distinct Info Mean Gmd .05 .10
## 831 388 22 0.978 2007 4.915 1999 2000
## .25 .50 .75 .90 .95
## 2004 2007 2008 2012 2014
##
## lowest : 1994 1996 1997 1998 1999, highest: 2012 2013 2014 2015 2016
## --------------------------------------------------------------------------------
2.2.3 Histogramme nombre d’individus par année
2.2.4 Histogramme nombre d’années de suivi
2.2.5 Présentation des données
Le jeu de données, auquel ont été retirées les observations aberrantes, est constitué de 7 variables et 1219 observations. Chaque observation correspond à l’information de fécondité associée à une femelle chamois et relative à une année donnée. Le jeu de données résume les suivis réalisés entre 1992 et 2017 sur 26 années. D’après l’histogramme présentant le nombre d’individus suivis chaque année, les années entre 2005 et 2007 sont les années pour lesquelles le nombre de chamois suivis a été le plus important. 208 femelles chamois ont été suivies au total. Le nombre d’années de suivi varie selon les femelles entre 1 et 16 années (cf histogramme nombre d’années de suivi).
2.3 Création des variables âge (age),longévité (long) et âge au moment du marquage (agemark)
cham2 <- cham %>%
summarise(cham, age= year-coh, long=ydth-coh, agemark=anmark-coh)3 Question 1 : Lien fécondité annuelle et âge des femelles
3.1 Représentation graphique des données
3.1.1 Représentation par classe d’âge
3.1.2 Représentation sans grouper par classe d’âge
3.1.2.1 Utilisation de la fonction jitter
3.1.2.2 Utilisation de la fonction geom_count
Graphiquement, une augmentation de l’âge des chamois semble engendrer une diminution de la fécondité annuelle des chamois.
3.2 Analyse statistique du lien entre fécondité annuelle et l’âge des femelles
3.2.1 Modèles de régression linéaire généralisé avec effets aléatoires
3.2.1.1 Premier modèle testé glm1
On réalise l’analyse statistique sur les données brutes et non sur les données groupées par classe d’âge pour éviter de masquer la variabilité de la fécondité annuelle entre individus via une somme des fécondité par classe d’âge. Le premier modèle appliqué est un modèle glm qui utilise la fonction de lien binomial afin de prendre en compte le fait que la variable réponse soit une variable binomiale. La variable “id” est désignée comme variable aléatoire pour tenir compte du fait que les observations sont répétées sur les mêmes individus sur plusieurs années.
## Generalized linear mixed model fit by maximum likelihood (Laplace
## Approximation) [glmerMod]
## Family: binomial ( logit )
## Formula: fec ~ age + (1 | id)
## Data: cham2
##
## AIC BIC logLik deviance df.resid
## 1601.2 1616.5 -797.6 1595.2 1216
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -1.8934 -1.1311 0.6397 0.7592 1.0459
##
## Random effects:
## Groups Name Variance Std.Dev.
## id (Intercept) 0.2843 0.5332
## Number of obs: 1219, groups: id, 208
##
## Fixed effects:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.88399 0.17400 5.081 3.76e-07 ***
## age -0.03981 0.01688 -2.358 0.0184 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Correlation of Fixed Effects:
## (Intr)
## age -0.905
Interprétation des coefficients:
L’AIC de ce modèle est de 1601. Avec ce modèle, la dispersion calculée comme le ratio variance/df est de 1.3 donc il n’y a pas de surdispersion observée. En calculant l’inverse de la fonction logit, on calcule le coefficient qui permet d’exprimer la fécondité annuelle en fonction de l’âge. Il est 4.061% moins vraisemblable que les chamois aient un petit lorsque leur âge augmente d’un an (p value<0.02).
3.2.1.2 Second modèle testé glm2
On ajoute la variable “year” comme variable aléatoire pour prendre en compte le fait que les individus sont suivis sur les mêmes années.
## Generalized linear mixed model fit by maximum likelihood (Laplace
## Approximation) [glmerMod]
## Family: binomial ( logit )
## Formula: fec ~ age + (1 | id) + (1 | year)
## Data: cham2
##
## AIC BIC logLik deviance df.resid
## 1583.0 1603.4 -787.5 1575.0 1215
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -2.1300 -1.0339 0.5917 0.7282 1.4224
##
## Random effects:
## Groups Name Variance Std.Dev.
## id (Intercept) 0.3172 0.5632
## year (Intercept) 0.1851 0.4303
## Number of obs: 1219, groups: id, 208; year, 26
##
## Fixed effects:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.97013 0.20191 4.805 1.55e-06 ***
## age -0.04340 0.01754 -2.474 0.0133 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Correlation of Fixed Effects:
## (Intr)
## age -0.811
Interprétation des coefficients:
L’AIC de ce modèle est de 1583. Avec ce modèle, la dispersion calculée comme le ratio variance/df est de 1.3 donc il n’y a pas de surdispersion observée. En calculant l’inverse de la fonction logit, on calcule le coefficient qui permet d’exprimer la fécondité annuelle en fonction de l’âge. Il est 4.435% moins vraisemblable que les chamois aient un petit lorsque leur âge augmente d’un an (p value<0.02).
L’AIC du modèle glm2 est < AIC du modèle glm1 donc, par la suite, les variables “year” et “ID” sont conservées comme variables aléatoires.
3.2.1.3 Troisième modèle testé glm1q
Un modèle quadratique est testé par la suite pour prendre en compte
la tendance de la ligne de régression observée sur les graphiques (via
la fonction geom_smooth). Pour appuyer ce choix, sur le graphique qui
représente les données groupées par âge, un modèle de type quadratique
est ajoutée et ce modèle est bien ajustée aux données observées (cf
figure ci-dessous).
## Generalized linear mixed model fit by maximum likelihood (Laplace
## Approximation) [glmerMod]
## Family: binomial ( logit )
## Formula: fec ~ age + I(age^2) + (1 | id) + (1 | year)
## Data: cham2
##
## AIC BIC logLik deviance df.resid
## 1496.3 1521.8 -743.2 1486.3 1214
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -2.5079 -0.8929 0.5018 0.6685 5.2068
##
## Random effects:
## Groups Name Variance Std.Dev.
## id (Intercept) 0.3540 0.5950
## year (Intercept) 0.2566 0.5066
## Number of obs: 1219, groups: id, 208; year, 26
##
## Fixed effects:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -2.005000 0.392488 -5.108 3.25e-07 ***
## age 0.690386 0.086746 7.959 1.74e-15 ***
## I(age^2) -0.037416 0.004465 -8.381 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Correlation of Fixed Effects:
## (Intr) age
## age -0.910
## I(age^2) 0.836 -0.976
## optimizer (Nelder_Mead) convergence code: 0 (OK)
## Model failed to converge with max|grad| = 0.00647378 (tol = 0.002, component 1)
## Model is nearly unidentifiable: very large eigenvalue
## - Rescale variables?
La variable âge est centrée normée car le modèle n’arrive pas à converger.
## Generalized linear mixed model fit by maximum likelihood (Laplace
## Approximation) [glmerMod]
## Family: binomial ( logit )
## Formula: fec ~ age_scale + I(age_scale^2) + (1 | id) + (1 | year)
## Data: cham2
##
## AIC BIC logLik deviance df.resid
## 1496.3 1521.8 -743.2 1486.3 1214
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -2.5079 -0.8929 0.5018 0.6685 5.2068
##
## Random effects:
## Groups Name Variance Std.Dev.
## id (Intercept) 0.3540 0.5950
## year (Intercept) 0.2566 0.5066
## Number of obs: 1219, groups: id, 208; year, 26
##
## Fixed effects:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 1.179656 0.151563 7.783 7.07e-15 ***
## age_scale -0.006016 0.074835 -0.080 0.936
## I(age_scale^2) -0.588891 0.070277 -8.380 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Correlation of Fixed Effects:
## (Intr) ag_scl
## age_scale 0.076
## I(ag_scl^2) -0.485 -0.113
Interprétation des coefficients:
L’AIC de ce modèle est de 1496. Avec ce modèle, la dispersion calculée est de 1.2 donc il n’y a pas de surdispersion observée. L’AIC de ce modèle quadratique < l’AIC des modèles glm1 et glm2 donc le modèle quadratique est plus adapté comme attendu graphiquement. Une observation des coefficients associés aux termes âge et âge^2 indique que le terme “âge” n’est pas significatif dans la prédiction de la variable réponse (p value = 0.94) alors que la p value associée au terme “âge^2” < 0.01. La fonction carré est donc testée.
3.2.1.4 4ème modèle testé glm1c
## Generalized linear mixed model fit by maximum likelihood (Laplace
## Approximation) [glmerMod]
## Family: binomial ( logit )
## Formula: fec ~ I(age_scale^2) + (1 | id) + (1 | year)
## Data: cham2
##
## AIC BIC logLik deviance df.resid
## 1494.3 1514.7 -743.2 1486.3 1215
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -2.5094 -0.8914 0.5025 0.6684 5.1922
##
## Random effects:
## Groups Name Variance Std.Dev.
## id (Intercept) 0.3525 0.5937
## year (Intercept) 0.2567 0.5067
## Number of obs: 1219, groups: id, 208; year, 26
##
## Fixed effects:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 1.18061 0.15108 7.814 5.53e-15 ***
## I(age_scale^2) -0.58955 0.06975 -8.452 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Correlation of Fixed Effects:
## (Intr)
## I(ag_scl^2) -0.480
Interprétation des coefficients:
L’AIC de ce modèle est de 1494. Avec ce modèle, la dispersion calculée est 1.2 donc il n’y a pas de surdispersion observée. Le modèle étant compliqué, il est difficile d’interpréter les coefficients car il faudrait prendre en compte l’effet de lien logit, le fait que la varibale “age” ait été centrée normée et le fait qu’on ait appliqué un carré à la variable explicative. Par contre, on peut conclure que la variable “age^2” a un bien un effet significatif et négatif sur la fécondité annuelle des chamois comme l’indique l’exponentielle du logarithme de l’odd-ratio qui est <1.
3.2.1.5 5ème modèle testé lm1g et glm1g sur variables groupées
Même s’il semblait plus adéquat de travailler sur les données brutes, un modèle linéaire a été testé sur les données groupées par classe d’âge.
##
## Call:
## lm(formula = fecmean ~ age, data = cham_age)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.41788 -0.09736 -0.03280 0.15228 0.24735
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.902957 0.091529 9.865 6.55e-09 ***
## age -0.035026 0.006382 -5.488 2.70e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1771 on 19 degrees of freedom
## Multiple R-squared: 0.6132, Adjusted R-squared: 0.5928
## F-statistic: 30.12 on 1 and 19 DF, p-value: 2.705e-05
L’âge présente un effet significatif (p value < 0.01) avec une fécondité moyenne de la population qui diminuerait chaque année de 0.035 avec un R2 supérieur à 0.6. Le modèle linéaire ne semble en revanche pas valider toutes les hypothèses requises: -Normalité des résidus validée -Homoscédasticité des résidus non validée Un modèle glm1g est donc testé sur les variables groupées par classe d’âge.
##
## Call:
## glm(formula = fecmean ~ age, family = "gaussian", data = cham_age)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -0.41788 -0.09736 -0.03280 0.15228 0.24735
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.902957 0.091529 9.865 6.55e-09 ***
## age -0.035026 0.006382 -5.488 2.70e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 0.03136476)
##
## Null deviance: 1.54058 on 20 degrees of freedom
## Residual deviance: 0.59593 on 19 degrees of freedom
## AIC: -9.2098
##
## Number of Fisher Scoring iterations: 2
## [1] 0.9655803
Même si le travail sur les données brutes est préféré, ce modèle glm1g montre une fois de plus un impact de l’age sur la fécondité moyenne annuelle de la population (p value<0.01) avec un AIC faible (-9.2)
3.2.2 Conclusions
| npar | AIC | BIC | logLik | deviance | Chisq | Df | Pr(>Chisq) | |
|---|---|---|---|---|---|---|---|---|
| glm1 | 3 | 1601.182 | 1616.499 | -797.5910 | 1595.182 | NA | NA | NA |
| glm2 | 4 | 1582.963 | 1603.386 | -787.4813 | 1574.963 | 20.2192505 | 1 | 0.0000069 |
| glm1c | 4 | 1494.319 | 1514.742 | -743.1593 | 1486.319 | 88.6440167 | 0 | NA |
| glm1q | 5 | 1496.312 | 1521.841 | -743.1562 | 1486.312 | 0.0062428 | 1 | 0.9370238 |
Le modèle glm1c présente le plus faible AIC. La variable “âge” a un effet significatif négatif sur la fécondité annuelle via ce modèle ce qui n’est pas surprenant d’après les observations graphiques.
4 Question 2 : Variation de la fécondité annuelle en fonction du temps
4.1 Représentation graphique des données
4.1.1 Représentation graphique par année
4.1.2 Représentation graphique sans grouper par année
Graphiquement, la fécondité annuelle ne semble pas varier significativement avec les années.
4.1.3 Variation de l’age moyen des chamois en fonction des années
Un simple modèle linéaire est appliqué pour vérifier si l’âge moyen de la population varie avec les années.
##
## Call:
## lm(formula = agemoyen ~ year, data = cham_ans)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.91884 -0.39101 0.08584 0.36430 1.64814
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -125.08560 40.53706 -3.086 0.00506 **
## year 0.06699 0.02022 3.312 0.00292 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7734 on 24 degrees of freedom
## Multiple R-squared: 0.3137, Adjusted R-squared: 0.2851
## F-statistic: 10.97 on 1 and 24 DF, p-value: 0.002922
Le modèle linéaire semble valider toutes les hypothèses requises:
-Normalité des résidus validée -Homoscédasticité des résidus non validée
La p value est < 0.05 donc l’effet observé est significatif. Lorsque
la taille de l’effet est évalué, l’age moyen de la population augmente
de 1.7416535 sur les 26 années d’étude donc la taille de l’effet est
faible.
4.2 Analyse statistique du lien entre fécondité annuelle et années
4.2.1 Modèles de régression linéaire généralisé avec effets aléatoires
Le premier modèle appliqué est un modèle glm qui utilise la fonction de lien binomial afin de prendre en compte le fait que la variable réponse soit une variable binomiale. La variable “id” est désignée comme variable aléatoire pour tenir compte du fait que les observations sont répétées sur les mêmes individus sur plusieurs années. Afin que le modèle converge, la variable “année” est centrée normée.
## Generalized linear mixed model fit by maximum likelihood (Laplace
## Approximation) [glmerMod]
## Family: binomial ( logit )
## Formula: fec ~ year_scale + (1 | id)
## Data: cham2
##
## AIC BIC logLik deviance df.resid
## 1605.2 1620.5 -799.6 1599.2 1216
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -1.8267 -1.1356 0.6372 0.7564 1.0624
##
## Random effects:
## Groups Name Variance Std.Dev.
## id (Intercept) 0.2899 0.5384
## Number of obs: 1219, groups: id, 208
##
## Fixed effects:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.51559 0.07436 6.934 4.1e-12 ***
## year_scale -0.08965 0.07129 -1.257 0.209
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Correlation of Fixed Effects:
## (Intr)
## year_scale -0.012
Interprétation des coefficients:
L’AIC de ce modèle est de 1605. Avec ce modèle, la dispersion calculée comme le ratio variance/df est de 1.3 donc il n’y a pas de surdispersion observée. D’après la p-value > 0.1, il n’y a pas d’effets significatifs de la variable “year” sur la fécondité annuelle comme supposé préalablement par les représentations graphiques.
C’est donc la variable “age” qui a un impact sur la fécondité annuelle et non la variable “year”. Pour confirmer ce point, un modèle glm avec effets additifs “age” et “year” est testé.
On observe via ce modèle bien l’effet de l’age et l’absence d’effet des années. Ainsi, la fécondité de la population de chamois n’est pas sensible à la variation de la taille de la population qui n’a donc surement pas atteint sa capacité de charge maximum.
5 Question 3 : Lien entre fécondité totale et longévité des animaux
5.1 Représentation graphique des données
5.1.1 Représentation sans prendre en compte le nombre d’années de suivi
On élimine les individus qui ne sont pas morts et dont on ne connait pas la longévité
Le graphique ci-dessous est biaisé du fait que les individus ne sont pas
suivis toute la durée de leur vie et donc la fécondité totale ne
représente que la somme de la fécondité sur les années de suivi.
5.1.2 Prise en compte du biais apporté par le nombre d’années de suivi
Tous les chamois n’ont pas été marqués au même âge et donc n’ont pas été suivis le même nombre d’année comme le montre l’histogramme ci-dessous.
Le nombre d’années de suivi n’est donc pas égal à la longévité des individus comme illustré par le graphique ci-dessous.
Dans un premier temps, l’impact du nombre d’années de suivi sur la
fécondité totale des chamois est vérifié.
Comme attendu, la fécondité totale augmente avec le nombre d’années de suivi. Or, il est difficile de savoir si la période plus longue de suivi est due au fait que l’individu a été marqué précocement ou que l’individu a vécu plus longtemps.
Pour pouvoir répondre à la question initiale, qui consiste à vérifier s’il y a un lien entre la fécondité totale et la longévité, il faut pouvoir comparer des individus suivis sur le même nombre d’année et si possible sur le maximum d’années possibles.
Malheureusement, il n’y a pas une année de marquage avec un échantillon significatif de la population pour pouvoir réaliser l’analyse statistique sur un échantillon de la population marquée à un âge particulier.
Une autre solution est de sélectionner une sous partie de la population suivie au moins sur une partie importante de leur vie (ratio anneetot/longévité). On sait que la variable “année” n’a pas d’impact sur la fécondité annuelle des chamois donc le fait que les chamois aient été suivis pendant des périodes différentes n’a pas d’impact.
5.1.3 Création d’un sous-échantillon pour répondre à la question
Une sélection des individus suivis sur 60 ou 70% de leur vie est réalisée en utilisant les arguments suivants: -taille échantillon > 30 individus -individus au moins suivis sur 60% de leur vie
5.1.4 Représentation graphique de la sous-population
5.2 Analyse statistique du lien entre la fécondité annuelle et la longévité
5.2.1 Tests de modèles de régression lineaire généralisé avec effets aléatoires
Un modèle linéaire est appliqué pour les individus sélectionnés et une comparaison est faite entre les deux échantillons sélectionnés.
##
## Call:
## lm(formula = feconditetotale ~ long, data = cham_long70)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.8092 -1.0853 0.1385 1.4126 3.1908
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -4.5842 1.2771 -3.589 0.00103 **
## long 0.8996 0.1090 8.256 1.24e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.955 on 34 degrees of freedom
## Multiple R-squared: 0.6672, Adjusted R-squared: 0.6574
## F-statistic: 68.16 on 1 and 34 DF, p-value: 1.236e-09
##
## Call:
## lm(formula = feconditetotale ~ long, data = cham_long60)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.4364 -1.2538 0.0636 1.3005 4.0243
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -3.12906 0.93821 -3.335 0.00161 **
## long 0.75655 0.07755 9.756 3.67e-13 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.855 on 50 degrees of freedom
## Multiple R-squared: 0.6556, Adjusted R-squared: 0.6487
## F-statistic: 95.17 on 1 and 50 DF, p-value: 3.672e-13
Les deux modèles linéaires valident toutes les hypothèses requises: -Normalité des résidus validée -Homoscédasticité des résidus validée
Le modèle appliqué aux individus suivis sur au moins 60% de leur vie indique un effet significatif de la longévité sur la fécondité totale avec une augmentation de 0.76 individus par point de longévité supplémentaire (R2>0.65). Le modèle appliqué aux individus suivis sur au moins 70% de leur vie indique un effet significatif de la longévité sur la fécondité totale avec une augmentation de 0.90 individus par point de longévité supplémentaire (R2>0.67).
5.2.2 Conclusion
En utilisant une sous échantillon de la population pour prendre en compte le fait que les individus sont suivis sur une petite partie de leur vie seulement, on observe une effet significatif de la variable “longévité” sur la fécondité totale des chamois. Ainsi, plus les chamois vivent longtemps, plus ils ont une chance d’avoir des petits.
6 Question 4: Lien entre fécondité annuelle et longévité des animaux
6.1 Représentation graphique des données
L’allure concave des lignes de régression illustre une augmentation de la fécondité annuelle avec la longévité jusqu’à atteindre un maximum puis une diminution de la fécondité annuelle lorsque la longévité augmente.
6.2 Analyse statistique du lien entre fécondité annuelle et longévité des femelles
6.2.1 Modèles de régression lineaire généralisé avec effets aléatoires
6.2.1.1 Premier modèle
Le premier modèle appliqué est un modèle glm qui utilise la fonction de lien binomial afin de prendre en compte le fait que la variable réponse soit une variable binomiale. Les variables “id” et “year” sont désignées comme variables aléatoires pour tenir compte du fait que les observations sont répetées sur les mêmes individus sur plusieurs années.
## Generalized linear mixed model fit by maximum likelihood (Laplace
## Approximation) [glmerMod]
## Family: binomial ( logit )
## Formula: fec ~ long + (1 | id) + (1 | year)
## Data: cham2
##
## AIC BIC logLik deviance df.resid
## 1095.7 1114.6 -543.8 1087.7 827
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -1.9453 -1.0366 0.6092 0.7325 1.1869
##
## Random effects:
## Groups Name Variance Std.Dev.
## id (Intercept) 0.43475 0.6594
## year (Intercept) 0.04156 0.2039
## Number of obs: 831, groups: id, 155; year, 25
##
## Fixed effects:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.514760 0.336411 1.530 0.126
## long -0.001207 0.024977 -0.048 0.961
##
## Correlation of Fixed Effects:
## (Intr)
## long -0.946
Interprétation des coefficients:
L’AIC de ce modèle = 1096. Avec ce modèle, la dispersion calculée comme le ratio variance/df est de 1.3 donc il n’y a pas de surdispersion observée. Avec ce modèle, la p value associé à l’impact de la variable “longévité” sur la fécondité annuelle est de 0.96 donc l’effet de la longévité sur la variable réponse n’est pas significatif.
6.2.1.2 Second modèle
On applique un modèle quadratique pour prendre en compte la tendance de la ligne de régression observée sur les graphiques qui présente une inflexion.
## Warning in checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, :
## Model failed to converge with max|grad| = 0.00368322 (tol = 0.002, component 1)
## Warning in checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, : Model is nearly unidentifiable: very large eigenvalue
## - Rescale variables?;Model is nearly unidentifiable: large eigenvalue ratio
## - Rescale variables?
## Generalized linear mixed model fit by maximum likelihood (Laplace
## Approximation) [glmerMod]
## Family: binomial ( logit )
## Formula: fec ~ long_scale + I(long_scale^2) + (1 | id) + (1 | year)
## Data: cham2
##
## AIC BIC logLik deviance df.resid
## 1087.7 1111.3 -538.8 1077.7 826
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -1.8996 -1.0484 0.6048 0.7235 1.2578
##
## Random effects:
## Groups Name Variance Std.Dev.
## id (Intercept) 0.35326 0.5944
## year (Intercept) 0.05225 0.2286
## Number of obs: 831, groups: id, 155; year, 25
##
## Fixed effects:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.72629 0.13075 5.555 2.78e-08 ***
## long_scale -0.02455 0.09424 -0.260 0.7945
## I(long_scale^2) -0.21946 0.06915 -3.174 0.0015 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Correlation of Fixed Effects:
## (Intr) lng_sc
## long_scale -0.015
## I(lng_sc^2) -0.555 0.101
Interprétation des coefficients:
L’AIC de ce modèle est de 1088. Avec ce modèle, la dispersion calculée est de 1.3 donc il n’y a pas de surdispersion observée. L’AIC de ce modèle quadratique < l’AIC du modèle linéaire donc le modèle quadratique est plus adapté. Une observation des coefficients associés aux termes longévité et longévité^2 indique que le terme “longévité” n’est pas significatif dans la prédiction de la variable réponse (p value = 0.79) alors que la p value associée au terme “longévité^2” < 0.01. La fonction carré est donc testée.
6.2.1.3 Troisième modèle
## Generalized linear mixed model fit by maximum likelihood (Laplace
## Approximation) [glmerMod]
## Family: binomial ( logit )
## Formula: fec ~ I(long_scale^2) + (1 | id) + (1 | year)
## Data: cham2
##
## AIC BIC logLik deviance df.resid
## 1085.7 1104.6 -538.9 1077.7 827
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -1.9027 -1.0474 0.6044 0.7221 1.2898
##
## Random effects:
## Groups Name Variance Std.Dev.
## id (Intercept) 0.34640 0.5886
## year (Intercept) 0.05033 0.2243
## Number of obs: 831, groups: id, 155; year, 25
##
## Fixed effects:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.72585 0.12992 5.587 2.31e-08 ***
## I(long_scale^2) -0.21769 0.06853 -3.177 0.00149 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Correlation of Fixed Effects:
## (Intr)
## I(lng_sc^2) -0.558
Interprétation des coefficients:
L’AIC de ce modèle est de 1086. Avec ce modèle, la dispersion calculée est 1.3 donc il n’y a pas de surdispersion observée. Le modèle étant compliqué, il est difficile d’interpréter les coefficients car il faudrait prendre en compte l’effet de lien logit, le fait que la variable “long” ait été centrée normée et le fait qu’on ait appliqué un carré à la variable explicative. Par contre, on peut conclure que la variable “long^2” a un bien un effet significatif et négatif sur la fécondité annuelle des chamois comme l’indique l’exponentielle du logarithme de l’odd-ratio qui est <1.
6.2.2 Conclusions
ajouter Le modèle avec la fonction carré présente le plus faible AIC. La variable “longévité” a un effet significatif sur la fécondité annuelle via ce modèle ce qui n’est pas surprenant car graphiquement la ligne de régression présentait une courbe avec une diminution de la fécondité pour des longévités élevées.
7 Question 5a: Lien entre fécondite totale et poids
7.1 Représentation graphique des données
7.1.1 Vérification de la comparabilité des poids selon les âges de capture et élimination des valeurs outliers
Certains poids semblent éloignés de la moyenne notamment ceux
correspondant aux années de marquage < 4 ans puis les poids se
stabilisent. Afin d’étudier l’impact des poids sur la fécondité totale,
les individus marqués avant 4 ans sont exclus.
7.1.2 Analyse statistique du lien entre fécondité totale et poids des femelles
Nous sommes encore confrontés au problème associée avec la variable “fécondité totale” qui ne correspond pas à la fécondité des individus durant toute leur vie. Le fait d’avoir dû retirer les individus pesés trop jeunes avec des poids peu comparables diminuent la taille de la population exploitable.
Pour avoir un échantillon d’au moins 30 individus, il faut descendre à un ratio années de suivi/longévité< 0.4 ce qui est beaucoup trop faible pour avoir une représentation fiable de la fécondité totale.
cham_pds_tri%>%
filter(ratiosuivi>0.4)| id | feconditetotale | long | agemax | pds | coh | anneetot | minan | maxan | agemark | ratiosuivi |
|---|---|---|---|---|---|---|---|---|---|---|
| 108 | 5 | 21 | 21 | 25.0 | 1987 | 11 | 1998 | 2008 | 11 | 0.5238095 |
| 111 | 8 | 15 | 15 | 19.5 | 1992 | 10 | 1998 | 2007 | 6 | 0.6666667 |
| 128 | 8 | 15 | 15 | 25.3 | 1992 | 10 | 1998 | 2007 | 6 | 0.6666667 |
| 131 | 5 | 12 | 12 | 21.2 | 1992 | 6 | 1999 | 2004 | 7 | 0.5000000 |
| 133 | 5 | 10 | 10 | 22.7 | 1993 | 5 | 1999 | 2003 | 6 | 0.5000000 |
| 14 | 7 | 18 | 18 | 27.0 | 1982 | 9 | 1992 | 2000 | 10 | 0.5000000 |
| 154 | 4 | 11 | 11 | 22.0 | 1995 | 8 | 1999 | 2006 | 4 | 0.7272727 |
| 170 | 5 | 13 | 13 | 22.7 | 1994 | 8 | 2000 | 2007 | 6 | 0.6153846 |
| 233 | 5 | 9 | 9 | 22.7 | 1998 | 6 | 2002 | 2007 | 4 | 0.6666667 |
| 24 | 4 | 10 | 10 | 25.0 | 1988 | 6 | 1993 | 1998 | 5 | 0.6000000 |
| 242 | 2 | 10 | 10 | 22.0 | 1997 | 6 | 2002 | 2007 | 5 | 0.6000000 |
| 250 | 7 | 13 | 13 | 21.3 | 1996 | 8 | 2002 | 2009 | 6 | 0.6153846 |
| 259 | 6 | 14 | 14 | 22.5 | 1996 | 8 | 2003 | 2010 | 7 | 0.5714286 |
| 260 | 5 | 9 | 9 | 24.2 | 1998 | 5 | 2003 | 2007 | 5 | 0.5555556 |
| 268 | 4 | 10 | 10 | 21.2 | 1997 | 5 | 2003 | 2007 | 6 | 0.5000000 |
| 281 | 2 | 12 | 12 | 20.0 | 1995 | 5 | 2003 | 2007 | 8 | 0.4166667 |
| 29 | 4 | 11 | 11 | 23.5 | 1987 | 6 | 1993 | 1998 | 6 | 0.5454545 |
| 292 | 8 | 15 | 15 | 26.0 | 1997 | 9 | 2004 | 2012 | 7 | 0.6000000 |
| 294 | 7 | 13 | 13 | 20.0 | 1999 | 9 | 2004 | 2012 | 5 | 0.6923077 |
| 316 | 3 | 10 | 10 | 21.0 | 1998 | 5 | 2004 | 2008 | 6 | 0.5000000 |
| 326 | 2 | 11 | 11 | 23.5 | 2000 | 7 | 2005 | 2011 | 5 | 0.6363636 |
| 338 | 3 | 7 | 7 | 22.8 | 2000 | 3 | 2005 | 2007 | 5 | 0.4285714 |
| 353 | 3 | 11 | 11 | 22.6 | 1998 | 5 | 2005 | 2009 | 7 | 0.4545455 |
| 357 | 1 | 6 | 6 | 23.6 | 2001 | 3 | 2005 | 2007 | 4 | 0.5000000 |
| 363 | 5 | 14 | 14 | 25.0 | 1998 | 7 | 2006 | 2012 | 8 | 0.5000000 |
| 38 | 6 | 14 | 14 | 25.0 | 1987 | 9 | 1993 | 2001 | 6 | 0.6428571 |
| 417 | 3 | 11 | 11 | 20.6 | 2002 | 7 | 2007 | 2013 | 5 | 0.6363636 |
| 43 | 8 | 14 | 14 | 20.5 | 1990 | 11 | 1994 | 2004 | 4 | 0.7857143 |
| 46 | 7 | 19 | 19 | 21.0 | 1983 | 9 | 1994 | 2002 | 11 | 0.4736842 |
| 67 | 5 | 20 | 20 | 23.5 | 1986 | 12 | 1995 | 2006 | 9 | 0.6000000 |
| 79 | 4 | 16 | 16 | 21.0 | 1986 | 7 | 1996 | 2002 | 10 | 0.4375000 |
| 81 | 6 | 16 | 16 | 23.0 | 1991 | 12 | 1996 | 2007 | 5 | 0.7500000 |
| R1 | 7 | 16 | 16 | 23.5 | 1989 | 11 | 1995 | 2005 | 6 | 0.6875000 |
Une solution est d’étudier le lien entre poids et fécondité totale en ajoutant comme autres variables explicatives l’age de marquage et la la longévité.
7.1.2.1 Premier modèle testé lm1
##
## Call:
## lm(formula = feconditetotale ~ pds + agemark, data = cham_pds_tri)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.8300 -1.3974 -0.1664 1.2372 5.5550
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.88790 2.01153 0.939 0.3500
## pds 0.18330 0.09092 2.016 0.0462 *
## agemark -0.34596 0.06141 -5.633 1.33e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.002 on 112 degrees of freedom
## Multiple R-squared: 0.2233, Adjusted R-squared: 0.2094
## F-statistic: 16.1 on 2 and 112 DF, p-value: 7.16e-07
Le modèle linéaire semble valider toutes les hypothèses requises: -Normalité des résidus validée -Homoscédasticité des résidus validée
7.1.2.2 Deuxième modèle testé lm2
##
## Call:
## lm(formula = feconditetotale ~ pds + agemark + long, data = cham_pds_tri)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.68994 -0.55654 -0.02483 0.82352 2.01824
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.95349 1.41230 -0.675 0.501
## pds 0.10375 0.06482 1.601 0.113
## agemark -0.68981 0.04731 -14.581 <2e-16 ***
## long 0.60494 0.04399 13.752 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.099 on 87 degrees of freedom
## (24 observations effacées parce que manquantes)
## Multiple R-squared: 0.7489, Adjusted R-squared: 0.7402
## F-statistic: 86.47 on 3 and 87 DF, p-value: < 2.2e-16
Le modèle linéaire semble valider toutes les hypothèses requises: -Normalité des résidus validée -Homoscédasticité des résidus validée
7.1.2.3 3ème modèle testé glm1
L’allure de la fécondité totale semble suivre une loi de poisson donc on applique une modèle glm avec un effet de lien de poisson.
##
## Call:
## glm(formula = feconditetotale ~ pds + agemark + long, family = "poisson",
## data = cham_pds_tri)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.93804 -0.49224 -0.04153 0.53622 1.14875
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.18720 0.75251 -0.249 0.804
## pds 0.03364 0.03446 0.976 0.329
## agemark -0.21180 0.02451 -8.642 <2e-16 ***
## long 0.17420 0.02095 8.317 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for poisson family taken to be 1)
##
## Null deviance: 149.683 on 90 degrees of freedom
## Residual deviance: 52.512 on 87 degrees of freedom
## (24 observations effacées parce que manquantes)
## AIC: 298.3
##
## Number of Fisher Scoring iterations: 4
D’après les modèles testées, les variables longévité et age de marquage influent bien sur la fécondité totale comme attendu mais la variable poids ne semble pas impacter la fécondité totale.
8 Question 5b: Lien entre longévité et poids
8.1 Représentation graphique des données
8.1.1 Représentation graphique de la longévité en fonction du poids
8.2 Analyse statistique du lien entre longévité et poids des femelles
8.2.1 Modèles de régression linéaire généralisé avec effets aléatoires
La variable longévité semble présenter une distribution normale donc on applique un modèle linéaire lm.
##
## Call:
## lm(formula = long ~ pds, data = cham_pds)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.6973 -2.2532 0.2628 2.3085 7.7089
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.33010 1.66882 1.995 0.0482 *
## pds 0.39844 0.07789 5.116 1.19e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.475 on 121 degrees of freedom
## (50 observations effacées parce que manquantes)
## Multiple R-squared: 0.1778, Adjusted R-squared: 0.171
## F-statistic: 26.17 on 1 and 121 DF, p-value: 1.189e-06
Le modèle linéaire semble valider toutes les hypothèses requises: -Normalité des résidus validée -Homoscédasticité des résidus validée
D’après le résumé du modèle, la longévité augmente de 0.39 années lorsque le poids augmente d’un kg (p value < 0.01). La poids semble donc avoir un impact sur la longévité.
9 Résultats
L’ensemble des modèles testées montrent que l’age influe sur la fécondité annuelle mais qu’il n’y as pas d’effets années. Les femelles plus agées ont une fécondité annuelle qui chute mais la population ne semble pas avoir atteint sa capacité de charge maximale.
Plus les chamois vivent longtemps, plus elles ont le temps d’avoir des petits malgré la diminution de la fécondité annuelle avec l’age. Par contre, des femelles longévives ont une fécondité annuelle qui baisse ce qui indique un cout important de la réproduction.
Un poids plus important des chamois implique une augmentation de la longévité plus importante et on pourrait donc s’attendre à une augmentation de la fécondité totale également. Mais, de par la difficulté d’avoir accès à la fécondité totale, il est difficile de conclure sur l’impact du poids étant donné que l’age du marquage et la longévité (et donc de manière indirecte le nombre d’années de suivi) impactent bien plus sur la fécondité totale que la variable poids.